聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

本文作者：周蕾

2020-04-15 09:55

導(dǎo)語(yǔ)：從“自給自足”的To C模式，到企業(yè)之間互聯(lián)互通的To B模式，再到金融、醫(yī)療、安防等全場(chǎng)景應(yīng)用的過(guò)程。

聯(lián)邦學(xué)習(xí)，無(wú)疑是當(dāng)前最受工業(yè)界和學(xué)術(shù)界關(guān)注的人工智能研究方向之一。

近兩年，在楊強(qiáng)教授等世界級(jí)專家的聯(lián)合推動(dòng)下，國(guó)內(nèi)外多數(shù)科技巨頭，均已開始搭建聯(lián)邦學(xué)習(xí)的研究與應(yīng)用團(tuán)隊(duì)。

基于此，雷鋒網(wǎng)《AI金融評(píng)論》與《AI科技評(píng)論》聯(lián)合邀請(qǐng)五位頂尖聯(lián)邦學(xué)習(xí)專家，啟動(dòng)《金融聯(lián)邦學(xué)習(xí)公開課》。其中在昨日的首節(jié)公開課上，微眾銀行首席AI官楊強(qiáng)教授分享了《聯(lián)邦學(xué)習(xí)前沿與應(yīng)用價(jià)值討論》。（課程全文與視頻回顧，將在公眾號(hào)《AI金融評(píng)論》發(fā)布）

今天，我們先來(lái)完整回顧下聯(lián)邦學(xué)習(xí)誕生三年來(lái)，從“自給自足”的To C模式，到企業(yè)之間互聯(lián)互通的To B模式，再到金融、醫(yī)療、安防等全場(chǎng)景應(yīng)用的過(guò)程。

聯(lián)邦學(xué)習(xí)的誕生：一個(gè)有趣的To C設(shè)想

聯(lián)邦學(xué)習(xí)的概念，首次提出是在2017年的一篇Google AI Blog博文。

文章作者之一是Blaise Agu?ray Arcas，他2014年加入谷歌，此前在微軟任杰出工程師。加入谷歌后，Blaise領(lǐng)導(dǎo)了谷歌設(shè)備端on-device機(jī)器智能（Machine Intelligence）項(xiàng)目，同時(shí)負(fù)責(zé)基礎(chǔ)研究與新產(chǎn)品研發(fā)工作。

在他加入谷歌后不久，便開始了聯(lián)邦學(xué)習(xí)的研究。直到2017年，當(dāng)他們?nèi)〉昧艘欢ǖ某晒?，才在博文中進(jìn)行公布。

設(shè)備上的聯(lián)邦學(xué)習(xí)

Blaise 等人（或許也在某種程度上代表谷歌）所關(guān)注的，更多是設(shè)備上的聯(lián)邦學(xué)習(xí)——這也正是聯(lián)邦學(xué)習(xí)概念被提出之初的應(yīng)用場(chǎng)景。

由于神經(jīng)網(wǎng)絡(luò)仍然受到學(xué)習(xí)效率的限制，它需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練，所以一些大公司，如谷歌、微軟、亞馬遜等開始提供人工智能服務(wù)時(shí)需要收集大量的數(shù)據(jù)，才能去訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)。這也是一直以來(lái)，整個(gè)社區(qū)所做的事情。

對(duì)于設(shè)備端（例如手機(jī)）的智能應(yīng)用，通常情況下的模式是，用戶在設(shè)備上產(chǎn)生的數(shù)據(jù)會(huì)被上傳到服務(wù)器中，然后由部署在服務(wù)器上的神經(jīng)網(wǎng)絡(luò)模型根據(jù)收集到的大量數(shù)據(jù)進(jìn)行訓(xùn)練得到一個(gè)模型，服務(wù)商根據(jù)這個(gè)模型來(lái)為用戶提供服務(wù)。隨著用戶設(shè)備端數(shù)據(jù)的不斷更新并上傳到服務(wù)器，服務(wù)器將根據(jù)這些更新數(shù)據(jù)來(lái)更新模型。很明顯這是一種集中式的模型訓(xùn)練方法。

然而這種方式存在幾個(gè)問(wèn)題：1）無(wú)法保證用戶的數(shù)據(jù)隱私，用戶使用設(shè)備過(guò)程中產(chǎn)生的所有數(shù)據(jù)都將被服務(wù)商所收集；2）難以克服網(wǎng)絡(luò)延遲所造成的卡頓，這在需要實(shí)時(shí)性的服務(wù)（例如輸入法）中尤其明顯。

Blaise等人便想，是否可以通過(guò)做一個(gè)大型的分布式的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練框架，讓用戶數(shù)據(jù)不出本地（在自己的設(shè)備中進(jìn)行訓(xùn)練）的同時(shí)也能獲得相同的服務(wù)體驗(yàn)。

解決之道便是：上傳權(quán)重，而非數(shù)據(jù)。

我們知道神經(jīng)網(wǎng)絡(luò)模型是由不同層的神經(jīng)元之間連接構(gòu)成的，層與層之間的連接則是通過(guò)權(quán)重實(shí)現(xiàn)的，這些權(quán)重決定了神經(jīng)網(wǎng)絡(luò)能夠做什么：一些權(quán)重是用來(lái)區(qū)分貓和狗的；另一組則可以區(qū)分桌子和椅子。從視覺識(shí)別到音頻處理都是由權(quán)重來(lái)決定的。神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練本質(zhì)上就是在訓(xùn)練這些權(quán)重。

那么Blaise提出的設(shè)備端聯(lián)邦學(xué)習(xí)，不再是讓用戶把數(shù)據(jù)發(fā)送到服務(wù)器，然后在服務(wù)器上進(jìn)行模型訓(xùn)練，而是用戶本地訓(xùn)練，加密上傳訓(xùn)練模型（權(quán)重），服務(wù)器端會(huì)綜合成千上萬(wàn)的用戶模型后再反饋給用戶模型改進(jìn)方案。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

這里或許值得強(qiáng)調(diào)，這種在設(shè)備端上的模型是經(jīng)壓縮過(guò)的，而非像服務(wù)器中那種大型神經(jīng)網(wǎng)絡(luò)模型。因此模型訓(xùn)練的耗能是非常小的，幾乎檢測(cè)不到。

此外，Blaise講了一個(gè)非常形象的比喻，即人會(huì)在睡覺的時(shí)候通過(guò)做夢(mèng)來(lái)更新自己的大腦認(rèn)知系統(tǒng)；同樣設(shè)備終端的系統(tǒng)也可以通過(guò)閑置時(shí)進(jìn)行模型訓(xùn)練和更新。所以整體上，這并不會(huì)對(duì)用戶的使用體驗(yàn)造成任何影響。

總結(jié)一下設(shè)備上聯(lián)邦學(xué)習(xí)的過(guò)程：

設(shè)備端下載當(dāng)前版本的模型；
通過(guò)學(xué)習(xí)本地?cái)?shù)據(jù)來(lái)改進(jìn)模型；
把對(duì)模型的改進(jìn)，概括成一個(gè)比較小的更新；
該更新被加密發(fā)送到云端；
與其他用戶的更新即時(shí)整合，作為對(duì)共享模型的改進(jìn)。

整個(gè)過(guò)程有三個(gè)關(guān)鍵環(huán)節(jié)：

根據(jù)用戶使用情況，每臺(tái)手機(jī)在本地對(duì)模型進(jìn)行個(gè)性化改進(jìn)；
形成一個(gè)整體的模型修改方案；
應(yīng)用于共享的模型。該過(guò)程會(huì)不斷循環(huán)。

其優(yōu)點(diǎn)顯而易見：

首先，數(shù)據(jù)可以不上傳云端，服務(wù)提供商看不到用戶數(shù)據(jù)，這能提高用戶數(shù)據(jù)隱私性。因此也就不必在隱私和功能之間權(quán)衡，可以兩者兼有。這一點(diǎn)在當(dāng)下數(shù)據(jù)隱私越來(lái)越受到重視的情況下特別重要。

其次，延時(shí)降低。如果將用戶所有數(shù)據(jù)都上傳到云端，且服務(wù)本身也是從云端進(jìn)行反饋，那么在網(wǎng)速較慢的環(huán)境下，網(wǎng)絡(luò)延時(shí)將會(huì)極大降低用戶體驗(yàn)。而聯(lián)邦學(xué)習(xí)加持下的服務(wù)則不會(huì)出現(xiàn)這種情況，因?yàn)榉?wù)本身就來(lái)自于本地。

同時(shí)，聯(lián)邦學(xué)習(xí)的出現(xiàn)，也使得用戶從人工智能的旁觀者，真正轉(zhuǎn)變?yōu)槿斯ぶ悄馨l(fā)展的參與者。

To B人工智能的困局：隱私保護(hù)、小數(shù)據(jù)、數(shù)據(jù)孤島

其實(shí)Google的聯(lián)邦學(xué)習(xí)，并沒有解決企業(yè)之間數(shù)據(jù)孤島問(wèn)題。

Google的方案可以理解為To C的，應(yīng)用在用戶的手機(jī)端，是同一家公司根據(jù)內(nèi)部對(duì)To C業(yè)務(wù)的需求所產(chǎn)生的一套用以解決數(shù)據(jù)隱私問(wèn)題的方案。

而楊強(qiáng)教授牽頭建設(shè)的聯(lián)邦學(xué)習(xí)生態(tài)更多是To B模式，用以解決企業(yè)與企業(yè)之間的數(shù)據(jù)孤島難題，是一個(gè)更開放的類似企業(yè)聯(lián)盟的生態(tài)。

總體而言，Google的聯(lián)邦學(xué)習(xí)方案是橫向的，它使用的數(shù)據(jù)特征相同，因此只需要建同一個(gè)模型。

而新方案則是縱向聯(lián)邦學(xué)習(xí)，不同企業(yè)之間的數(shù)據(jù)特征往往不同，所以即便面向的用戶是相同的場(chǎng)景，整個(gè)技術(shù)方案和實(shí)施框架也不一樣。

楊強(qiáng)教授曾在雷鋒網(wǎng)承辦的CCF-GAIR 2019「AI 金融專場(chǎng)」的大會(huì)報(bào)告中指出，利益驅(qū)使下，各家公司們過(guò)去并不愿意把數(shù)據(jù)拿出來(lái)和其他公司交換。除了少數(shù)幾家擁有海量用戶、具備產(chǎn)品和服務(wù)優(yōu)勢(shì)的「巨無(wú)霸」公司外，大多數(shù)企業(yè)難以以一種合理合法的方式跨越人工智能落地的數(shù)據(jù)鴻溝，或者對(duì)于他們來(lái)說(shuō)需要付出巨大的成本來(lái)解決這一問(wèn)題。

此外，監(jiān)管當(dāng)局已經(jīng)采取頗為嚴(yán)格的隱私保護(hù)措施。

去年5月份歐洲首先提出數(shù)據(jù)隱私保護(hù)法GDPR，對(duì)人工智能機(jī)器的使用、數(shù)據(jù)的使用和數(shù)據(jù)確權(quán)，都提出非常嚴(yán)格的要求，以至于Google被多次罰款，每次金額都在幾千萬(wàn)歐元左右。

因?yàn)镚DPR其中一則條文就是數(shù)據(jù)使用不能偏離用戶簽的協(xié)議，也許用戶的大數(shù)據(jù)分析，可以用作提高產(chǎn)品使用體驗(yàn)，但是如果公司拿這些數(shù)據(jù)訓(xùn)練對(duì)話系統(tǒng)，就違反了協(xié)議。如果公司要拿這些數(shù)據(jù)做另外的事，甚至拿這些數(shù)據(jù)和別人交換，前提必須是一定要獲得用戶的同意。

另外還有一些嚴(yán)格的要求，包括可遺忘權(quán)，就是說(shuō)用戶有一天不希望自己的數(shù)據(jù)用在你的模型里了，那他就有權(quán)告訴公司，公司有責(zé)任把該用戶的數(shù)據(jù)從模型里拿出來(lái)。這種要求不僅在歐洲，在美國(guó)加州也實(shí)行了非常嚴(yán)格的類似的數(shù)據(jù)保護(hù)法。

中國(guó)對(duì)數(shù)據(jù)隱私和保護(hù)也進(jìn)行了非常細(xì)致的研究，從2009年到2019年有一系列動(dòng)作，而且越來(lái)越嚴(yán)格，經(jīng)過(guò)長(zhǎng)期的討論和民眾的交互，可能近期會(huì)有一系列正式的法律出臺(tái)。

其次，我們的數(shù)據(jù)大部分是小數(shù)據(jù)：沒有好的模型就無(wú)法做到好的自動(dòng)化，好的模型往往需要好的大數(shù)據(jù)，但往往高質(zhì)量、有標(biāo)簽的數(shù)據(jù)都是小數(shù)據(jù)。

而且數(shù)據(jù)都在變化，每個(gè)階段的數(shù)據(jù)和上一個(gè)階段的數(shù)據(jù)有不同的分布，也許特征也會(huì)有不同。實(shí)時(shí)標(biāo)注這些數(shù)據(jù)想形成好的訓(xùn)練數(shù)據(jù)又需要花費(fèi)很多人力。

當(dāng)前，大多數(shù)應(yīng)用領(lǐng)域均存在數(shù)據(jù)有限且質(zhì)量較差的問(wèn)題，在某些專業(yè)性很強(qiáng)的細(xì)分領(lǐng)域（如醫(yī)療診斷）更是難以獲得足以支撐人工智能技術(shù)實(shí)現(xiàn)的標(biāo)注數(shù)據(jù)。

三是“對(duì)抗學(xué)習(xí)”的挑戰(zhàn)。即針對(duì)人工智能應(yīng)用的作假，比如人臉識(shí)別就可以做假，針對(duì)面部進(jìn)行合成。如何應(yīng)對(duì)這種“對(duì)抗學(xué)習(xí)”的挑戰(zhàn)，這是金融場(chǎng)景下人工智能安全領(lǐng)域的重大題目。

不僅金融場(chǎng)景，在法律場(chǎng)景也是這樣，醫(yī)療場(chǎng)景更是如此。每個(gè)醫(yī)院的數(shù)據(jù)集都是有限的，如果不能把這些數(shù)據(jù)打通，每個(gè)數(shù)據(jù)集就只能做簡(jiǎn)單的模型，也不能達(dá)到人類醫(yī)生所要求的高質(zhì)量的疾病識(shí)別。

在這樣的困境中，不少人覺得人工智能的冬天也許又一次到來(lái)了——但在聯(lián)邦學(xué)習(xí)研究者看來(lái)，這正是一次技術(shù)躍遷的良機(jī)。

聯(lián)邦學(xué)習(xí)：橫向、縱向、遷移

楊強(qiáng)這樣形容聯(lián)邦學(xué)習(xí)的精髓：

我們每個(gè)人的大腦里都有數(shù)據(jù)，當(dāng)兩個(gè)人在一起做作業(yè)或者一起寫書的時(shí)候，我們并沒有把兩個(gè)腦袋物理性合在一起，而是兩個(gè)人用語(yǔ)言交流。所以我們寫書的時(shí)候，一個(gè)人寫一部分，通過(guò)語(yǔ)言的交流最后把合作的文章或者書寫出來(lái)。
我們交流的是參數(shù)，在交流參數(shù)的過(guò)程中有沒有辦法保護(hù)我們大腦里的隱私呢？是有辦法的，這個(gè)辦法是讓不同的機(jī)構(gòu)互相之間傳遞加密后的參數(shù)，以建立共享的模型，數(shù)據(jù)可以不出本地。

從簡(jiǎn)單定義來(lái)講，聯(lián)邦學(xué)習(xí)是在本地把本地?cái)?shù)據(jù)建一個(gè)模型，再把這個(gè)模型的關(guān)鍵參數(shù)加密，這種數(shù)據(jù)加密傳到云端也沒有辦法解密，因?yàn)樗玫降氖且粋€(gè)加密數(shù)據(jù)包，云端把幾千萬(wàn)的包用一個(gè)算法加以聚合，來(lái)更新現(xiàn)有的模型，然后再把更新后的模型下傳。重要的是，整個(gè)過(guò)程中Server云端不知道每個(gè)包里裝的內(nèi)容。

之前這種做法比較困難，但同態(tài)加密的出現(xiàn)讓運(yùn)算效率取得了重大提升，即加密算法可以隔著加密層去進(jìn)行運(yùn)算。不過(guò)需要注意的是這只是2C的例子，是云端面對(duì)大用戶群的例子。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

它可以把多項(xiàng)式的加密，分解成每項(xiàng)加密的多項(xiàng)式，A+B的加密，變成A的加密加B的加密，這是非常偉大的貢獻(xiàn)。因?yàn)檫@樣就使得我們可以拿一個(gè)算法，在外面把算法給全部加密，加密的一層可以滲透到里面的每個(gè)單元。能做到這一點(diǎn)就能改變現(xiàn)有的機(jī)器學(xué)習(xí)的教科書，把任何算法變成加密的算法。

對(duì)于橫向、縱向和遷移聯(lián)邦學(xué)習(xí)，楊強(qiáng)給出了如下解釋：

橫向聯(lián)邦學(xué)習(xí)

橫向聯(lián)邦學(xué)習(xí)是每行過(guò)來(lái)都可以看作一個(gè)用戶的數(shù)據(jù)。按照用戶來(lái)分，可以看作一、二、三個(gè)手機(jī)，它叫橫向?qū)W習(xí)。還有一個(gè)原因是它們的縱向都是特征，比如手機(jī)型號(hào)、手機(jī)使用時(shí)間、電池以及人的位置等，這些都是特征。他們的特征都是一樣的，樣本都是不一樣的，這是橫向聯(lián)邦學(xué)習(xí)。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

主要做法是首先把信用評(píng)級(jí)得到，然后在加密狀態(tài)下做聚合，這種聚合里面不是簡(jiǎn)單的加，而是很復(fù)雜的加，然后把征信模型再分發(fā)下來(lái)。

縱向聯(lián)邦學(xué)習(xí)

大家的Feature不一樣，一個(gè)機(jī)構(gòu)紅色、一個(gè)機(jī)構(gòu)藍(lán)色，大家可以想象兩個(gè)醫(yī)院，一個(gè)病人在紅色醫(yī)院做一些檢測(cè)，在藍(lán)色的醫(yī)院做另外一些檢測(cè)，當(dāng)我們知道這兩個(gè)醫(yī)院有同樣一群病人，他們不愿意直接交換數(shù)據(jù)的情況下，有沒有辦法聯(lián)合建模？

它們中間有一個(gè)部門墻，我們可以在兩邊各自建一個(gè)深度學(xué)習(xí)模型，建模的時(shí)候關(guān)鍵的一步是梯度下降，梯度下降我們需要知道幾個(gè)參數(shù)，上一輪參數(shù)、Loss（gradients）來(lái)搭配下一個(gè)模型的weight參數(shù)。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

這個(gè)過(guò)程中我們需要得到全部模型的參數(shù)級(jí)，這時(shí)候需要進(jìn)行交換，交換的時(shí)候可以通過(guò)同態(tài)加密的算法，也可以通過(guò)secure multiparty computation，這里面有一系列的算法，兩邊交換加密參數(shù)，對(duì)方進(jìn)行更新，再次交換參數(shù)，一直到系統(tǒng)覆蓋。

遷移聯(lián)邦學(xué)習(xí)

它們?cè)谔卣魃弦粯?，或者在特征上不一樣，但是他們的用戶有些是有交集的，?dāng)用戶和特征沒有交集時(shí)，我們退一步想，我們可以把他們所在的空間進(jìn)行降維或者升維，把他們帶到另外的空間去。

在另外的空間可以發(fā)現(xiàn)他們的子空間是有交互的，這些子空間的交互就可以進(jìn)行遷移學(xué)習(xí)。雖然他們沒有直接的特征和用戶的重合，我們還是可以找到共性進(jìn)行遷移學(xué)習(xí)。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

總的來(lái)說(shuō)，聯(lián)邦學(xué)習(xí)的這種思想，事實(shí)上并不僅僅適用于設(shè)備用戶數(shù)據(jù)的隱私保護(hù)和模型更新。

我們將設(shè)備用戶抽象來(lái)看，視作數(shù)據(jù)的擁有者，可以是手機(jī)持有者，也可以是公司、醫(yī)院、銀行等；而服務(wù)器或云端視作模型共享綜合平臺(tái)。

作為一種新的學(xué)習(xí)范式，聯(lián)邦學(xué)習(xí)具有以下特點(diǎn)：

在聯(lián)邦學(xué)習(xí)的框架下，各參與者地位對(duì)等，能夠?qū)崿F(xiàn)公平合作；
數(shù)據(jù)保留在本地，避免數(shù)據(jù)泄露，滿足用戶隱私保護(hù)和數(shù)據(jù)安全的需求；
能夠保證參與各方在保持獨(dú)立性的情況下，進(jìn)行信息與模型參數(shù)的加密交換，并同時(shí)獲得成長(zhǎng)；
建模效果與傳統(tǒng)深度學(xué)習(xí)算法建模效果相差不大；
聯(lián)邦學(xué)習(xí)是一個(gè)「閉環(huán)」的學(xué)習(xí)機(jī)制，模型效果取決于數(shù)據(jù)提供方的貢獻(xiàn)。

這樣一個(gè)直接命中人工智能發(fā)展痛點(diǎn)的新技術(shù)，也開始進(jìn)入到各大應(yīng)用場(chǎng)景當(dāng)中。

聯(lián)邦學(xué)習(xí)與金融信貸風(fēng)控

在眾多金融業(yè)務(wù)環(huán)節(jié)中，飽受數(shù)據(jù)隱私和孤島效應(yīng)困擾的信貸風(fēng)控，無(wú)疑是實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)落地的最佳場(chǎng)景之一。

微眾銀行聯(lián)邦學(xué)習(xí)團(tuán)隊(duì)指出，基于聯(lián)邦學(xué)習(xí)的信貸風(fēng)控解決方案，能夠“在建模過(guò)程中，雙方交換梯度值，類似于方向向量的概念，交換的是中間變量，不是原始數(shù)據(jù)。同時(shí)對(duì)這個(gè)中間變量還進(jìn)行了同態(tài)加密，所以數(shù)據(jù)并不會(huì)出庫(kù)，保證數(shù)據(jù)源和應(yīng)用方的數(shù)據(jù)安全?！?/p>

聯(lián)邦學(xué)習(xí)所采用的局部數(shù)據(jù)收集和最小化原則，將降低傳統(tǒng)中心化機(jī)器學(xué)習(xí)方法帶來(lái)的一些系統(tǒng)性隱私風(fēng)險(xiǎn)和成本，這樣的效果也正契合了信貸風(fēng)控的提升方向。

總的來(lái)說(shuō)，這一做法是試圖通過(guò)聯(lián)邦數(shù)據(jù)網(wǎng)絡(luò)進(jìn)行信貸風(fēng)控增強(qiáng)，在貸前環(huán)節(jié)利用更豐富的數(shù)據(jù)信息綜合判斷客戶風(fēng)險(xiǎn)，幫助信貸公司過(guò)濾信貸黑名單或明顯沒有轉(zhuǎn)化的貸款客戶，進(jìn)一步降低貸款審批流程后期的信審成本。

在貸中，采用聯(lián)邦學(xué)習(xí)的解決方案主要提供根據(jù)用戶放款后的行為變化進(jìn)行的風(fēng)險(xiǎn)評(píng)估產(chǎn)品，幫助放貸機(jī)構(gòu)進(jìn)行調(diào)額調(diào)價(jià)的輔助決策。

對(duì)于貸后風(fēng)險(xiǎn)處置，方案則提供可以根據(jù)客戶的行為進(jìn)行催收預(yù)測(cè)的產(chǎn)品，幫助放貸機(jī)構(gòu)進(jìn)行催收的策略評(píng)估，調(diào)整催收策略，提升催收效率。

微眾聯(lián)邦學(xué)習(xí)團(tuán)隊(duì)表示，在具體實(shí)施上，解決方案會(huì)先行使用聯(lián)邦學(xué)習(xí)云服務(wù)進(jìn)行業(yè)務(wù)冷啟動(dòng)，并通過(guò)建立業(yè)務(wù)及AI模型閉環(huán)，小樣本建模，后期持續(xù)迭代優(yōu)化模型的方式，實(shí)現(xiàn)項(xiàng)目數(shù)字化，便于消費(fèi)金融業(yè)務(wù)方及信貸合作方能夠持續(xù)積累業(yè)務(wù)數(shù)據(jù)優(yōu)化聯(lián)邦模型。

以微眾銀行與合作伙伴公司的情況為例，微眾的特點(diǎn)是有很多用戶Y，數(shù)據(jù)集可分為X和Y，X是用戶的特征和行為，Y是最后的結(jié)論，我們?cè)阢y行的結(jié)論是信用逾期是否發(fā)生，這是逾期概率，合作的伙伴企業(yè)可能是互聯(lián)網(wǎng)企業(yè)或者是賣車的或者賣保險(xiǎn)，不一定有結(jié)論數(shù)據(jù)Y，但是它有很多行為信息X。

現(xiàn)在這兩個(gè)領(lǐng)域?qū)τ谕慌脩羧绻?，屬于縱向聯(lián)邦學(xué)習(xí)，建立縱向聯(lián)邦學(xué)習(xí)的應(yīng)用，最后就取得了很好的效果，AUC指標(biāo)大為上升，不良率大為下降。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

通過(guò)合法合規(guī)的多維度聯(lián)邦數(shù)據(jù)建模，風(fēng)控模型效果約可提升12%，相關(guān)企業(yè)機(jī)構(gòu)有效節(jié)約了信貸審核成本，整體成本預(yù)計(jì)下降5%-10%，并因數(shù)據(jù)樣本量的提升和豐富，風(fēng)控能力進(jìn)一步增強(qiáng)。

對(duì)合作方信貸機(jī)構(gòu)而言，信貸風(fēng)控能力也大幅度提升。

通過(guò)初審篩選掉黑名單和不可能轉(zhuǎn)化貸款客戶，在“信審漏斗第一步”減去無(wú)效客戶，從而在信貸預(yù)審階段使單接口調(diào)用成本預(yù)計(jì)節(jié)省20-30%，有效控制了信貸審核成本。

聯(lián)邦學(xué)習(xí)與醫(yī)療AI

作為醫(yī)療AI成長(zhǎng)道路不可或缺的“糧食”，數(shù)據(jù)一直是醫(yī)療AI落地的“攔路虎”。

醫(yī)療健康數(shù)據(jù)領(lǐng)域長(zhǎng)期存在“信息孤島”問(wèn)題，不同地區(qū)甚至不同醫(yī)院間的醫(yī)療數(shù)據(jù)沒有互聯(lián)，也沒有統(tǒng)一的標(biāo)準(zhǔn)。與此同時(shí)，數(shù)據(jù)安全問(wèn)題也存在著巨大挑戰(zhàn)。

就在昨日，騰訊天衍實(shí)驗(yàn)室公開宣布，其聯(lián)合微眾銀行研發(fā)的醫(yī)療聯(lián)邦學(xué)習(xí)，在腦卒中預(yù)測(cè)的應(yīng)用上，準(zhǔn)確率在相關(guān)數(shù)據(jù)集中高達(dá)80%。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

聯(lián)邦學(xué)習(xí)可以繞過(guò)醫(yī)療機(jī)構(gòu)之間的信息壁壘，不考慮將各自數(shù)據(jù)做合并，而是通過(guò)協(xié)議在其間傳遞加密之后的信息，該加密過(guò)程具有一定的隱私保護(hù)機(jī)制，保證加密后的信息不會(huì)產(chǎn)生數(shù)據(jù)泄露。各個(gè)醫(yī)療機(jī)構(gòu)通過(guò)使用這些加密的信息更新模型參數(shù)，從而實(shí)現(xiàn)在不暴露原始數(shù)據(jù)的條件下使用全部患者數(shù)據(jù)的訓(xùn)練過(guò)程。

舉例來(lái)說(shuō)，假設(shè)醫(yī)院 A 和 B 想聯(lián)合訓(xùn)練一個(gè)腦卒中疾病預(yù)測(cè)模型，兩個(gè)醫(yī)院各自掌握科研病例數(shù)據(jù)，此外，醫(yī)院 B 還擁有模型需要預(yù)測(cè)的標(biāo)簽數(shù)據(jù)如腦卒中發(fā)病標(biāo)簽。出于數(shù)據(jù)隱私保護(hù)和安全考慮，醫(yī)院A和 B無(wú)法直接進(jìn)行數(shù)據(jù)交換。聯(lián)邦學(xué)習(xí)系統(tǒng)則可以利用基于加密的患者樣本對(duì)齊技術(shù)，在醫(yī)院 A 和 B 不公開各自數(shù)據(jù)的前提下確認(rèn)雙方的共有患者，并且不暴露不互相重疊的患者，以便聯(lián)合這些用戶的特征進(jìn)行建模，在確定共有用戶群體后，就可以利用這些數(shù)據(jù)訓(xùn)練疾病預(yù)測(cè)模型。

在這樣的一種方式下，聯(lián)邦學(xué)習(xí)技術(shù)就實(shí)現(xiàn)了保護(hù)不同醫(yī)院數(shù)據(jù)隱私的疾病預(yù)測(cè)模型，而這項(xiàng)技術(shù)也在疾病預(yù)測(cè)領(lǐng)域落地，天衍實(shí)驗(yàn)室和微眾銀行成功構(gòu)建了一個(gè)“腦卒中發(fā)病風(fēng)險(xiǎn)預(yù)測(cè)模型”。

通過(guò)使用來(lái)自就診記錄數(shù)量TOP5的醫(yī)院真實(shí)就診數(shù)據(jù)驗(yàn)證，聯(lián)邦學(xué)習(xí)模型和集中訓(xùn)練模型表現(xiàn)幾乎一致，在腦卒中預(yù)測(cè)模型中的準(zhǔn)確率達(dá)到80%，僅比集中訓(xùn)練模型準(zhǔn)確率降低1%。

同時(shí)，聯(lián)邦學(xué)習(xí)技術(shù)顯著提升了不同醫(yī)院的獨(dú)立模型效果，特別是，對(duì)于兩家腦卒中確診病例數(shù)量較少的醫(yī)院而言，聯(lián)邦學(xué)習(xí)分別提升其準(zhǔn)確率10%和20%以上。

除疾病預(yù)測(cè)模型外，雙方還會(huì)圍繞聯(lián)邦學(xué)習(xí)在醫(yī)療大數(shù)據(jù)領(lǐng)域的應(yīng)用落地進(jìn)行更多維度的合作，包括醫(yī)?？刭M(fèi)、合理診斷、精準(zhǔn)醫(yī)療等領(lǐng)域，例如通過(guò)聯(lián)邦學(xué)習(xí)助力電子健康卡實(shí)現(xiàn)保護(hù)用戶隱私建模等等，進(jìn)而促進(jìn)醫(yī)療健康產(chǎn)業(yè)發(fā)展，提升醫(yī)療服務(wù)的質(zhì)量。

而在2019年醫(yī)學(xué)影像分析頂會(huì)MICCAI中，聯(lián)邦學(xué)習(xí)在醫(yī)學(xué)影像上的應(yīng)用正式進(jìn)入研究者的視野。

英偉達(dá)與倫敦國(guó)王學(xué)院以及一家法國(guó)初創(chuàng)公司Owkin合作，在新成立的倫敦醫(yī)學(xué)影像與人工智能中心中應(yīng)用了聯(lián)邦學(xué)習(xí)技術(shù)。

由于醫(yī)療數(shù)據(jù)的隱私規(guī)定，在集中數(shù)據(jù)湖中收集和共享患者數(shù)據(jù)通常是不可行的。這就給訓(xùn)練機(jī)器學(xué)習(xí)算法帶來(lái)了挑戰(zhàn)，例如深度卷積網(wǎng)絡(luò)通常需要大量不同的訓(xùn)練示例。

聯(lián)邦學(xué)習(xí)通過(guò)將代碼帶給患者數(shù)據(jù)所有者，并且只在他們之間共享中間模型訓(xùn)練的信息，從而避開了這一困難。盡管適當(dāng)?shù)鼐酆线@些模型可以獲得更高精度的模型，但共享的模型可能會(huì)間接泄漏本地訓(xùn)練數(shù)據(jù)。

這項(xiàng)技術(shù)論文提出了一個(gè)用于腦腫瘤分割的聯(lián)邦學(xué)習(xí)系統(tǒng)，探討了在聯(lián)邦學(xué)習(xí)系統(tǒng)中應(yīng)用微分隱私技術(shù)來(lái)保護(hù)病人數(shù)據(jù)的可行性。

此次試驗(yàn)是基于取自BraTS 2018數(shù)據(jù)集的腦腫瘤分割數(shù)據(jù)實(shí)施的，BraTS 2018 數(shù)據(jù)集包含有285位腦腫瘤患者的MRI掃描結(jié)果。

研究人員表示：“聯(lián)邦學(xué)習(xí)在無(wú)需共享患者數(shù)據(jù)的情況下，即可實(shí)現(xiàn)協(xié)作與分散化的神經(jīng)網(wǎng)絡(luò)訓(xùn)練。各節(jié)點(diǎn)負(fù)責(zé)訓(xùn)練其自身的本地模型，并定期提交給參數(shù)服務(wù)器。服務(wù)器不斷累積并聚合各自的貢獻(xiàn)，進(jìn)而創(chuàng)建一個(gè)全局模型，分享給所有節(jié)點(diǎn)。”

研究人員進(jìn)一步解釋道，雖然聯(lián)邦學(xué)習(xí)可以保證極高的隱私安全性，但通過(guò)模型反演，仍可以設(shè)法使數(shù)據(jù)重現(xiàn)。為了幫助提高聯(lián)邦學(xué)習(xí)的安全性，研究人員研究試驗(yàn)了使用ε-差分隱私框架的可行性。這個(gè)框架是一種正式定義隱私損失的方法，可以借助其強(qiáng)大的隱私保障性來(lái)保護(hù)患者與機(jī)構(gòu)數(shù)據(jù)。

NVIDIA團(tuán)隊(duì)解釋到，聯(lián)邦學(xué)習(xí)有望有效聚合各機(jī)構(gòu)從私有數(shù)據(jù)中本地習(xí)得的知識(shí)，從而進(jìn)一步提高深度模型的準(zhǔn)確性、穩(wěn)健性與通用化能力。

英偉達(dá)與倫敦國(guó)王學(xué)院研究人員在MICCAI上介紹了聯(lián)邦學(xué)習(xí)技術(shù)的更多實(shí)施細(xì)節(jié)：

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在多種醫(yī)學(xué)應(yīng)用中都顯示出很好的效果，但它高度依賴于訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性。在醫(yī)學(xué)成像方面，這構(gòu)成了一種特殊困難：例如，由于患者數(shù)量或病理類型的原因，所需的訓(xùn)練數(shù)據(jù)可能無(wú)法在單個(gè)機(jī)構(gòu)中獲得。同時(shí)，由于醫(yī)療數(shù)據(jù)隱私規(guī)定，在集中數(shù)據(jù)湖中收集和共享患者數(shù)據(jù)通常是不可行的。

聯(lián)邦學(xué)習(xí)則允許在不共享患者數(shù)據(jù)的情況下對(duì)DNN進(jìn)行合作和分布式訓(xùn)練。每個(gè)節(jié)點(diǎn)都訓(xùn)練自己的本地模型，并定期將其提交給參數(shù)服務(wù)器。服務(wù)器收集并聚合各個(gè)節(jié)點(diǎn)模型以生成一個(gè)全局模型，然后與所有節(jié)點(diǎn)共享。

需要注意的是，訓(xùn)練數(shù)據(jù)對(duì)每個(gè)節(jié)點(diǎn)都是私有的，在學(xué)習(xí)過(guò)程中不會(huì)被共享。只共享模型的可訓(xùn)練權(quán)重或更新，從而保持患者數(shù)據(jù)的私密性。因此，聯(lián)邦學(xué)習(xí)簡(jiǎn)潔地解決了許多數(shù)據(jù)安全挑戰(zhàn)，將數(shù)據(jù)放在需要的地方，并支持多機(jī)構(gòu)協(xié)作。

論文也披露了客戶端模型訓(xùn)練過(guò)程、服務(wù)器端模型聚合過(guò)程、部署在客戶端的隱私保護(hù)模塊，以及聯(lián)邦學(xué)習(xí)實(shí)驗(yàn)項(xiàng)目的配置與實(shí)驗(yàn)結(jié)果。研究人員表示，未來(lái)他們將探索用于醫(yī)學(xué)圖像分析任務(wù)的微分隱私SGD算法。

聯(lián)邦學(xué)習(xí)與安防

安防，是目前計(jì)算機(jī)視覺變現(xiàn)最快的領(lǐng)域。

宇視科技CEO張鵬國(guó)曾在接受雷鋒網(wǎng)專訪時(shí)提到，“當(dāng)前AI安防落地能力與用戶需求存有較大差距，前者還需面對(duì)數(shù)據(jù)隱私保護(hù)與安全管控、低成本、流程再造、組織變革等挑戰(zhàn)。”

具體來(lái)看，最為核心的痛點(diǎn)是，數(shù)據(jù)不夠多元，且異常封閉。

中國(guó)擁有龐大的人口數(shù)量、用戶量及圖像采集點(diǎn)，相關(guān)企業(yè)得到數(shù)據(jù)之后經(jīng)過(guò)篩選、過(guò)濾、疊加、組合，會(huì)對(duì)自身算法效果有階段性提升。

但這類提升屬于個(gè)人式的、微乎其微式的。

每個(gè)安防廠商所建設(shè)的AI系統(tǒng)類似一個(gè)又一個(gè)的“煙囪”，“煙囪式”架構(gòu)也就是垂直的體系結(jié)構(gòu)。

每一個(gè)IT系統(tǒng)都有自己的存儲(chǔ)和設(shè)備，以及獨(dú)立的管理工具和數(shù)據(jù)庫(kù)，不同的系統(tǒng)不能共享資源、不能交付和訪問(wèn)，形成了資源孤島和信息孤島。

由于不同企業(yè)的數(shù)據(jù)庫(kù)模型設(shè)計(jì)和針對(duì)的目標(biāo)有所不同，他們也無(wú)法直接交換、共享模型。

即便相關(guān)企業(yè)間的數(shù)據(jù)庫(kù)可以融合，但受制于隱私、安全等問(wèn)題，也絕不可如此為之。

有場(chǎng)景缺數(shù)據(jù)、有數(shù)據(jù)難共享。這是包括AI安防在內(nèi)的諸多行業(yè)目前存在的普遍問(wèn)題，也是阻礙AI普惠的最大痛點(diǎn)。

一方面，AI在安防行業(yè)的探索才剛剛開始；另一方面，做好AI所必須的數(shù)據(jù)養(yǎng)料有限且質(zhì)量較差，不同數(shù)據(jù)源之間存在難以打破的壁壘。

除了少數(shù)幾家擁有海量用戶、具備產(chǎn)品和服務(wù)優(yōu)勢(shì)的巨無(wú)霸企業(yè)外，大多數(shù)中小型AI安防企業(yè)難以以一種合理、合法的方式跨越人工智能落地的數(shù)據(jù)鴻溝，或者需要付出巨大的成本來(lái)解決這一問(wèn)題。

多位學(xué)術(shù)界、工業(yè)界領(lǐng)頭人指出：從目前的研究進(jìn)展來(lái)看，“聯(lián)邦學(xué)習(xí)”技術(shù)可能是解決以上問(wèn)題的最佳選擇。

譬如A廠商有校園數(shù)據(jù)、B廠商有工廠數(shù)據(jù)、C廠商有社區(qū)數(shù)據(jù)，且這三家廠商都使用了聯(lián)邦學(xué)習(xí)技術(shù)。

從業(yè)務(wù)層面出發(fā)，A、B、C這三家廠商便直接獲得了兩種能力：1、最快速地優(yōu)化自身業(yè)務(wù)；2、最快速地拓展新業(yè)務(wù)。

最快速地優(yōu)化自身業(yè)務(wù)表現(xiàn)在，平臺(tái)每天會(huì)有若干個(gè)類似A廠商的企業(yè)向平臺(tái)輸入加密后的數(shù)據(jù)模型，而這些數(shù)據(jù)模型中有A廠商非常缺乏的其他數(shù)據(jù)信息，而A廠商便可根據(jù)這些數(shù)據(jù)去更新自己的算法模型。

最快速地拓展新業(yè)務(wù)表現(xiàn)在，A、B、C每家廠商都有各自構(gòu)建好的模型，通過(guò)匯總?cè)サ玫礁蟮臄?shù)據(jù)模型，在不流通數(shù)據(jù)的情況下得到數(shù)據(jù)流通的最好效果，通過(guò)資源互補(bǔ)可以在最短時(shí)間內(nèi)安全地獲得對(duì)方的能力，去拓展新業(yè)務(wù)。

從隱私保護(hù)層面來(lái)看，通常智能攝像頭產(chǎn)生的數(shù)據(jù)會(huì)被上傳到后臺(tái)服務(wù)器中，然后由部署在服務(wù)器上的神經(jīng)網(wǎng)絡(luò)模型根據(jù)收集到的大量數(shù)據(jù)進(jìn)行訓(xùn)練得到一個(gè)模型，服務(wù)商根據(jù)這個(gè)模型來(lái)為用戶提供服務(wù)。

這是一種集中式的模型訓(xùn)練方法，這種方式很難保證數(shù)據(jù)隱私安全。

而聯(lián)邦學(xué)習(xí)就不再是讓數(shù)據(jù)發(fā)送到后臺(tái)，而是在每個(gè)企業(yè)自己的服務(wù)器上進(jìn)行訓(xùn)練，并加密上傳訓(xùn)練模型，后臺(tái)會(huì)綜合成千上萬(wàn)的用戶模型后再反饋給用戶改進(jìn)方案。

其中一個(gè)典型應(yīng)用案例，就是微眾銀行與極視角聯(lián)合推出的中國(guó)首個(gè)視覺聯(lián)邦學(xué)習(xí)系統(tǒng)。

以視頻攝像頭中的火焰識(shí)別為例，AI工程師們可能千辛萬(wàn)苦訓(xùn)練了一個(gè)火焰檢測(cè)的識(shí)別模型，想要用在監(jiān)控?cái)z像頭中，識(shí)別是否有燃燒現(xiàn)象，從而對(duì)火災(zāi)發(fā)生的可能性進(jìn)行分析，實(shí)現(xiàn)火災(zāi)預(yù)警。

原有的AI算法可以比較準(zhǔn)確地識(shí)別有明顯大面積燃燒和明火發(fā)生的常見場(chǎng)景。然而，遇到打火機(jī)點(diǎn)出的火焰時(shí)，攝像頭就有些“懵”了。

如果想讓模型增強(qiáng)識(shí)別能力，傳統(tǒng)的AI訓(xùn)練要求適用方能夠提供一些數(shù)據(jù)樣本，而這又出現(xiàn)了因網(wǎng)絡(luò)帶寬導(dǎo)致的算法準(zhǔn)確率不高及數(shù)據(jù)隱私等問(wèn)題。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

圖片來(lái)源：fedai.org

在聯(lián)邦視覺系統(tǒng)中，依托本地建模，在保證各方數(shù)據(jù)不出本地的情況下，即可提升AI算法準(zhǔn)確率。

在一次公開分享中，微眾銀行AI部門副總經(jīng)理陳天健透露，“在‘聯(lián)邦視覺系統(tǒng)’項(xiàng)目中，通過(guò)聯(lián)邦學(xué)習(xí)技術(shù)，整體模型的性能提升了15%，且模型效果無(wú)損失，極大地提升了建模效率。”

聯(lián)邦學(xué)習(xí)的未知之地

信貸風(fēng)控、醫(yī)療和安防的應(yīng)用，都只是聯(lián)邦學(xué)習(xí)賦能各領(lǐng)域的冰山一角。

未來(lái)包括金融、醫(yī)療、安防、零售、政務(wù)、工業(yè)等各行各業(yè)、各個(gè)場(chǎng)景都可以依據(jù)此技術(shù)實(shí)現(xiàn)降本增效、開源節(jié)流。

聯(lián)邦學(xué)習(xí)的生態(tài)建設(shè)也在同步進(jìn)行，只有多方合作、多方認(rèn)可下的聯(lián)邦學(xué)習(xí)才有望實(shí)現(xiàn)效益最大化。

如果你也想?yún)⑴c到人工智能學(xué)習(xí)和落地的最前沿，了解聯(lián)邦學(xué)習(xí)的最新研究成果與應(yīng)用情況，請(qǐng)持續(xù)關(guān)注楊強(qiáng)教授的公開課全文整理回顧，以及《聯(lián)邦學(xué)習(xí)系列公開課》的其他課程。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文